Tuili serving 层及以下 需求汇总

1. 长文本首字延时降低

2. Tuili serving 并发数要求

3. Tuili serving 功能完善性需求

4. Embedding 模型 私有化部署

  1. embedding 调用远程接口,我们只需要提供远程接口,基于 GPU/开源接口/OpenAI。
      - [ ] 不能满足私有化部署的需求。
      - [ ] 技术风险相对确定 ,在GPU serving 配置vllm embedding接口。
  2. 一体机加装一个GPU显卡专门支持 embedding,使用vllm支持。
      - [ ] 需要考虑模型大小,bge-m3有3种size,最大的5.8亿参数,不一定都能支持,
      - [ ] 不同显卡运行,可能有未知的坑。
      - [ ] 技术风险不确定
  3. 墨芯卡 支持  bge-m3 需要做的事:
      - [ ] 需要 编译 bge-m3  开源版本,需要有人比较长时间 投入embedding这个事,目前没有人分析这个事
      - [ ] bankend 需要开发 embeding inference 接口,需要有人比较长时间 投入embedding这个事,目前没有人分析这个事
      - [ ] tuili  开发 inference embedding 接口,我可以适配
      - [ ] 墨芯卡需要支持 多模型运行,目前有bug,需要有人解决这个问题,难度大
      - [ ] 此外,2卡支持 llm和embedding速度会很慢,用户不会满意。
      - [ ] 技术风险不确定

5. Tuili serving 关于 tool_choices 支持

6. Tuili serving 与 vllm/open ai 的功能对齐

LLM Infra 接口功能调研